Este relatório compreende a análise de um dataset, que contém as especificações técnicas de vinhos avaliados por profissionais. Possui também, uma coluna chamada quality, que é composta pela média das notas dadas por especialistas.
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
A distribuição das notas dadas é semelhante a uma distribuição normal, o que faz sentido, dado que as notas são médias das notas dadas pelos especialistas, então é mais provável que a distribuição se concentre nos valores medianos, como 5 e 6.
5.8531007, com intervalo de confiança em 95% de 5.902718.6.O desvio padrão é de 0.8856386.
A distribuição do pH nos vinhos, é semelhante a uma distribuição normal, onde a maioria dos valores estão compreendidos entre 3,0 e 3,4.
3.1840368, com intervalo de confiança em 95% de 3.1924965.3.18.O desvio padrão é de 0.1510006.
A distribuição da densidade dos vinhos, é semelhante a uma distribuição assimétrica positiva, onde a maioria dos valores estão abaixo de 1.
0.9939436, com intervalo de confiança em 95% de 0.9941112.0.99374.O desvio padrão é de 0.0029909.
A distribuição de \(SO_{2}\) total, é semelhante a uma distribuição levemente assimétrica positiva, onde a maioria dos valores estão compreendidos entre 100 e 200.
137.1701963, com intervalo de confiança em 95% de 139.5511185.134.O desvio padrão é de 42.4980646.
A distribuição de \(SO_{2}\) livre é assimétrica positiva, onde a maioria dos valores estão compreendidos entre 23 e 46.
34.8316789, com intervalo de confiança em 95% de 35.784491.34.O desvio padrão é de 17.0071373.
A distribuição dos Cloretos é semelhante a uma distribuição leptocúrtica, onde a maioria dos dados se compreendem entre 0.036 e 0.05.
0.0451603, com intervalo de confiança em 95% de 0.0463844.0.043.O desvio padrão é de 0.021848.
A distribuição é semelhante a uma distribuição levemente assimétrica positiva, onde a maioria dos dados estão compreendidos entre 1.7 a 9.9. A linha vermelha, indica quando o vinho é considerado doce, podemos ver que neste dataset há pouquíssimos vinhos doces.
6.2493357, com intervalo de confiança em 95% de 6.533494.5.2.O desvio padrão é de 5.0720578.
A distribuição do Ácido Cítrico nos vinhos do dataset, assemelha-se a uma distribuição tipo t. Onde a maioria dos valores estão compreendidos entre 0.27 a 0.39.
0.3308015, com intervalo de confiança em 95% de 0.3375815.0.32.O desvio padrão é de 0.1210198.
A distribuição da acidez volátil, é uma distribuição que assemelha-se a uma distribuição assimétrica positiva. A maioria dos vinhos se concentram-se entre os valores 0.21 a 0.32.
0.2754176, com intervalo de confiança em 95% de 0.2810646.0.26.O desvio padrão é de 0.1007945.
A distribuição da Acidez Fixa dos vinhos, assemelha-se a uma distribuição normal. A maioria dos valores estão compreendidos entre 6.3 e 7.3.
6.8311491, com intervalo de confiança em 95% de 6.8784262.6.8.O desvio padrão é de 0.8438682.
## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
Existem 4898 vinhos brancos no dataset, onde são compostos por 12 variáveis, como Ácidez Fixa, Ácidez Volátil, Ácido Cítrico, Açúcar Residual, Cloretos, Dióxido de Enxofre Livre, Dióxido de Enxofre Total, Densidade, pH, Sulfatos, Álcool e Qualidade. O principal atributo aqui, é a qualidade, que é composta da média das notas de 3 enólogos que provaram os vinhos.
De acordo com minha pesquisa através de artigos de enologia, suponho que os atributos que mais influenciam o gosto e a qualidade do vinho são: - Ácidez (fixa e volátil) - Ácido Cítrico - Dióxido de Enxofre (livre e total) - pH
Não achei necessário a criação de novas variáveis para a análise.
Em algumas variáveis, foi possível identificar distribuições assimétricas e positivas, o que indica que algumas características do vinho tendem a serem as mesmas, como por exemplo o nível de cloretos (que de acordo com a literatura, a concentração de cloretos em vinho sofre influência do país produtor e encontra-se em maiores concentrações nos vinhos de países que utilizam irrigação com água salina, ou que possuem solos salobros), a densidade (que define o “corpo do vinho”, que significa quão leve ou denso é um vinho no paladar, influenciando assim a qualidade) e o açúcar residual (proveniente do processo de fermentação).
Na próxima seção, irei fazer a eliminação dos outliers, para não somente melhor visualizações, mas como também para capturarmos as principais relações neste dataset, pois os outliers podem por vezes nos ofuscar para caminhos diferentes, pois como na descrição, o dataset é composto por variantes brancos dos vinhos verdes portugueses, sendo então mais importante a maioria dos valores do que os outliers.
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. :4.70 Min. :0.0800 Min. :0.0700 Min. : 0.600
## 1st Qu.:6.30 1st Qu.:0.2100 1st Qu.:0.2700 1st Qu.: 1.725
## Median :6.80 Median :0.2600 Median :0.3100 Median : 5.200
## Mean :6.83 Mean :0.2652 Mean :0.3252 Mean : 6.390
## 3rd Qu.:7.30 3rd Qu.:0.3100 3rd Qu.:0.3700 3rd Qu.: 9.700
## Max. :9.00 Max. :0.5000 Max. :0.5900 Max. :23.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01400 Min. : 2.0 Min. : 21.0
## 1st Qu.:0.03500 1st Qu.:24.0 1st Qu.:107.0
## Median :0.04200 Median :34.0 Median :133.0
## Mean :0.04229 Mean :34.9 Mean :137.4
## 3rd Qu.:0.04900 3rd Qu.:45.0 3rd Qu.:166.0
## Max. :0.07300 Max. :83.0 Max. :260.0
## density pH sulphates alcohol
## Min. :0.9871 Min. :2.790 Min. :0.2200 Min. : 8.40
## 1st Qu.:0.9916 1st Qu.:3.090 1st Qu.:0.4100 1st Qu.: 9.50
## Median :0.9936 Median :3.180 Median :0.4700 Median :10.50
## Mean :0.9939 Mean :3.188 Mean :0.4835 Mean :10.57
## 3rd Qu.:0.9959 3rd Qu.:3.280 3rd Qu.:0.5400 3rd Qu.:11.40
## Max. :1.0024 Max. :3.590 Max. :0.7800 Max. :14.20
## quality
## Min. :4.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.943
## 3rd Qu.:6.000
## Max. :8.000
4 e o novo máximo é 8.Na matriz de correlação linear, vemos algumas relações fortes entre alguns atributos.
A qualidade tem uma forte relação com a graduação alcóolica dos vinhos e uma leve relação inversamente proporcional com a densidade. Há também, outras relações mais fracas, como o total de \(SO_{2}\), os Cloretos e a Acidez Volátil.
O álcool, tem uma forte relação com a Densidade, também tem relações fortes e inversamente proporcionais com o Total de \(SO_{2}\), o \(SO_{2}\) livre, os Cloretos e o açúcar residual.
Os Sulfatos não apresentam relações fortes com as demais variáveis além da fraca relação com o pH.
O pH possui uma relação inversamente proporcional com a acidez fixa.
A densidade possui fortes relações com o total de \(SO_{2}\) e o açúcar residual, e possui também relações fracas com o total de \(SO_{2}\), os Cloretos e a acidez fixa.
O Total de \(SO_{2}\) tem uma relação com os \(SO_{2}\) livres e também com o açúcar residual.
O \(SO_{2}\) livres possuem uma relação com o açúcar residual, possui também fracas relações com os Cloretos, a Acidez Cítrica e a Acidez Volátil.
Os cloretos possuem fracas relações com o açúcar residual, a acidez cítrica e a acidez volátil.
O açúcar residual tem relações fracas com o ácido cítrico, a acidez volátil e a acidez fixa.
O ácido cítrico possui uma forte relação com a acidez fixa.
O álcool possui uma forte correlaçào negativa com a densidade.
Alguns atributos se relacionam melhor de formas não lineares, com o açúcar residual e o álcool, assim como a densidade e o álcool.
O total de \(SO_{2}\) tem uma correlação inversa bastante notória com o álcool.
O ácido cítrico possui uma forte relação com a acidez fixa.
A parte superior do gráfico, mostra as correlações lineares entre os valores. A diagonal, mostra a distribuição de cada variável individualmente. A parte inferior do gráfico plota as relações entre as variáveis através de um gráfico de dispersão. Nele, também está contido em linha azul uma regressão linear e em vermelho, uma regressão polinomial, onde o intervalo de confiança é mostrada em vermelho claro.
Eu escolhi esses atributos, pois eles possuem os 5 maiores níveis de correlação linear.
Vemos o quão distinto é nos gráficos de dispersão abaixo, as diferenças entre as notas 5 (amarelo) e 6 (laranja), com as notas 7 (roxo) sempre aparecendo nas bordas das notas 6, sempre se distanciando o máximo do amarelo.
Nesse gráfico, vemos algumas relações fortes. O álcool, possui fortes relações inversas com a densidade, o \(SO_{2}\) total e o açúcar residual.
A densidade também possui fortes relações, como com o açúcar residual e o \(SO_{2}\) total.
A maioria dos valores de nota 7 (amarelo) e 6 (laranja) se concentram no meio misturados, porém os de nota 5(roxo) se concentram mais perifericamente a essas distribuições.
Interessante como se forma uma linha quando o ácido cítrico é perto de 0.5 \(g/dm^3\), mostrando que é uma quantia bastante comum de ácido cítrico, apesar dos diferentes níveis de acidez fixa.
É interessante ver nesse gráfico a ascenção das notas dos vinhos ao longo do eixo do álcool e do sulfato. À esquerda temos a maioria nota 5 (lilás), à direita é predominantemente nota 7 (amarelo), no centro temos a transição de notas 6 (laranja) e em seguida notas 8 (azul).
Encontramos alguns pontos da nota 8 (azul) no começo, mas a maioria está na direita do gráfico, prevalecendo no lado do alto teor alcóolico.
Nesse gráfico, visualizamos que em todas as faixas de valores existem vinhos que possuem nota 6 (laranja), entretanto é mais provável que um vinho seja nota 5 (lilás) quando mais próximo da densidade de valor 1; confirmando o que vemos no gráfico anterior, onde um vinho pode ser bom independente da graduação alcóolica.
Entretanto, vemos como a concentração dos vinhos bons sempre aumenta quando se aumenta o teor alcóolico.
Nesse gráfico vemos que realmente os valores mais baixos de álcool detêm a maioria das notas baixas.
É interessante ver essas duas separações no começo do gráfico quando o açúcar e o teor alcóolico estão com níveis baixos.
Eu acho bastante interessante esse gráfico, pois ele mostra perfeitamente como é difícil fazer um bom vinho. A acidez do vinho, que não varia somente durante o processo de produção do vinho, mas como também no processo de amadurecimento das uvas em relação ao clima em que elas foram cultivadas.
Isso mostra, que não somente a produção, mas como também a obtenção das uvas é um processo complexo e que depende de vários fatores para proporcionar um vinho de ótima qualidade.
Apesar da estreita faixa de valores quando a nota é 8, ainda há muitos valores de outras notas compreendidos na mesma faixa, tornando-se o pH uma variável que não influencia tanto na compreensão das qualidades dos vinhos.
O dataset possui 4898 amostras de vinhos, cada um com 12 variáveis cada. Precisei estudar mais sobre como essas variáveis alteram a percepção do paladar final do vinho. Para a minha surpresa, haviam bastantes coisas que faziam sentido nos dados. Como por exemplo, a relação da graduação alcóolica com a qualidade, com o açúcar residual e com a densidade.
Vimos que nos gráficos da distribuição das característcas, a maioria dos gráficos eram assimétricos positivos, mostrando uma tendência dos vinhos a possuírem algumas características básicas. Um diferencial foi a análise da matriz de correlação, que mostrou baixíssima correlação entre os ácidos e a qualidade do vinho.
A limitação da análise a somente vinhos portugueses, brancos e quase nenhum vinho doce, fez com que muitas variáveis pendessem mais para certos valores, tornando a análise assim bem específica, considerando a quantidade de vinhos e características que eles poderiam possuir, através da variedade de uvas e características climáticas.
Para uma análise futura, seria interessante que o dataset houvesse classes balanceadas, para que houvesse a correta predição das características e não houvesse tendências devido a insuficiência dos dados. Outra coisa a ser considerada, seria a adição de vinhos que fossem doces, para que houvesse também uma comparação se o açúcar residual é realmente um fator decisivo, na consideração da nota de qualidade.
https://www.r-bloggers.com/how-to-make-a-histogram-with-ggplot2/
http://www.r-graph-gallery.com/wp-content/uploads/2015/10/42_some_colors_name.png
https://cengel.github.io/R-data-wrangling/data-visualization-with-ggplot2.html
https://www.r-bloggers.com/how-to-make-a-histogram-with-ggplot2/
http://jamesmarquezportfolio.com/correlation_matrices_in_r.html
https://ggplot2.tidyverse.org/reference/stat_summary.html
https://www.ensinoeinformacao.com/estatist-prob-curso-assimetria
http://seer.fcfar.unesp.br/rcfba/index.php/rcfba/article/viewFile/546/pdf546
https://www.decanter.com/learn/wine-terminology/sulfites-in-wine-friend-or-foe-295931/
https://winefolly.com/review/understanding-acidity-in-wine/
https://winepedia.com.br/curiosidades/o-acucar-vinho/
http://waterhouse.ucdavis.edu/whats-in-wine/sulfites-in-wine
http://www.leg.ufpr.br/Rpira/Rpira/node11.html
https://stackoverflow.com/questions/40229620/r-removing-all-outliers-from-a-data-set